在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
看起来非常之长,分开来看,流程如下:
- 将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
- 将拆分后的多列数据进行列转行操作(stack),合并成一列
- 将生成的复合索引重新进行reset保留原始的索引,并命名
- 将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接
具体操作如下:
预操作:生成需要使用的DataFrame
# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb(